КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-11-01027

НазваниеАлгоритмическая оптимизация для задач с большим числом переменных

РуководительНестеров Юрий Евгеньевич, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 2017 г. - 2019 г. 

Конкурс№18 - Конкурс 2017 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-203 - Теория оптимизации и исследование операций

Ключевые словаМетоды оптимизации, градиентный метод, метод Ньютона, универсальный метод, выпуклая оптимизация, локальная оптимизация, задачи большой размерности, машинное обучение, глубокое обучение, устойчивость линейных динамических систем, линейные системы с переключениями, оптимизация функции Ляпунова, разреженность, относительная точность, масштабирующий эллипсоид

Код ГРНТИ27.47.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Начиная с 2010 года, область численных методов оптимизации переживает громадный всплеск активности исследований. Развитие техники (увеличение объемов носителей информации и оперативной памяти, скорости работы процессоров), а также программного обеспечения (архитектура больших хранилищ данных, параллельные алгоритмы) позволяют моделировать реальные социальные, экономические, инженерные, физические системы с большим числом элементов или агентов, накапливать и обрабатывать огромные массивы данных в биологии, Интернете, физике с целью извлечения из них полезной информации. Так или иначе, во всех указанных областях возникают задачи оптимизации с большим (десятки тысяч) и огромным (миллионы и миллиарды) числом переменных или ограничений. Одним из главных примеров являются задачи BigData, в частности задачи анализа данных и машинного обучения, которые сводятся к задачам выпуклой оптимизации типа минимизации эмпирического риска. Основной сложностью решения таких задач является большое или огромное число переменных. В последние несколько лет в фокусе исследований по BigData оптимизации помимо выпуклых оказались также невыпуклые задачи, возникающие при обучении глубоких нейронных сетей (http://www.deeplearningbook.org/). Существенная доля работ, принятых на ведущие мировые конференции по анализу данных, таких как International Conference on Machine Learning (http://icml.cc/), Conference on Learning Theory (http://www.learningtheory.org), Neural Information Processing Systems (https://nips.cc/) за это время так или иначе связаны с оптимизацией. Организуются специальные конференции, посвященные исследованиям на стыке машинного обучения и оптимизации, например, Optimization and Statistical Learning '13,'15,'17. Другим важным приложением численных методов оптимизации являются задачи моделирования транспортных сетей мегаполисов. В используемых моделях возникают задачи поиска равновесного распределения транспортных потоков по путям, которые сводятся к задаче минимизации функции специального вида. Число переменных в этой задаче соответствует числу всех различных разумных маршрутов в транспортной сети, которое равно примерно квадрату числа вершин в графе транспортной сети, что для Москвы сотни тысяч. Аналогичные задачи возникают в моделях равновесия в транспортно-экономических системах, применяемых, например, для оптимизации тарифной политики РЖД, а также в моделях компьютерных сетей, применяемых для оценки объемов трафика, передаваемого между узлами сети. Транспортному моделированию посвящено большое количество журналов, например, Transportation science, Transportation research и другие. Задачам оптимизации, возникающим в транспорте и в телекоммуникациях посвящаются целые секции на престижных конференциях по оптимизации, например, на проходящем раз в три года The International Symposium on Optimization '12, '15. Кроме того, многие прикладные задачи электродинамики, математической экономики, популяционной динамики, и т.д. сводятся к проблеме устойчивости динамической линейной системы с переключениями. Возникающие в связи с этим задачи оптимизации функции Ляпунова системы в заданных классах функций имеют большие размерности и часто являются невыпуклыми. Эти задачи широко изучаются в настоящее время. Так, на крупнейших международных конференциях задачам устойчивости систем с переключениями регулярно посвящается много докладов, либо организуются специальные секции. Например, на ежегожных ILAS Conferences (http://www.ilasic.org/conferences/ilas.html), IEEE Conference on Decision and Control (http://cdc2016.ieeecss.org/), SIAM Conference on Applied Linear Algebra (http://www.siam.org/meetings/la15/). Наконец, в таких журналах как IEEE Transactions on Automatic Control и Systems and Control Letters, которые являются одними из самых высокорейтинговых математических журналов (импакт фактор 2.777 и 1.908 соответственно), регулярно публикуются статьи, изучающие проблемы устойчивости линейных динамических систем. Наконец, в инженерии при проектировании механических конструкций (Shape design, Truss topology design), состоящих из большого числа элементов возникают выпуклые задачи оптимизации с числом переменных порядка числа элементов в конструкции, которое может достигать десятков тысяч. Аналогичные задачи могут возникать при разработке материалов со специальными свойствами с использованием уравнений математической физики и методов конечных элементов. Эти задачи широко изучаются в настоящее время. Так, в системе Web of Science по теме Shape optimization проиндексировано более 10 тыс. работ за последние 5 лет. Целью предлагаемого исследования является разработка численных методов оптимизации, способных решать задачи высокой (т.е. большой или огромной) размерности в перечисленных приложениях. Отличительной особенностью разрабатываемых методов будет их универсальность и адаптивность, позволяющая работать без априорной информации о типе задачи (например, гладкая она или нет) или о ее параметрах (например, степень гладкости). Решение таких задач невозможно без эффективного использования их структуры. Например, в задачах машинного обучения представление целевой функции как суммы большого числа слагаемых будет использовано для существенного увеличения скорости работы алгоритмов. Особое внимание будет уделено теоретическим оценкам скорости сходимости предлагаемых алгоритмов, что позволит оценивать качество приближенного решения, вычисленного алгоритмами. Также будут проводиться численные эксперименты для проверки работы алгоритмов на реальных задачах. Для достижения поставленной цели в проекте планируется решить четыре задачи, каждая из которых мотивирована своей прикладной областью. 1. Задача “Универсальные градиентные методы (УГМ)”. Разработать линейку универсальных градиентных методов (УГМ) для задач выпуклой оптимизации. Приложения: моделирование равновесий в транспортных сетях мегаполисов, моделирование компьютерных сетей, машинное обучение, анализ данных. 2. Задача “Невыпуклая оптимизация (НВО)”. Разработать новые методы первого и второго порядка, в т.ч. универсальные, для задач невыпуклой, в т.ч. стохастической, оптимизации. Приложения: машинное обучение, анализ данных. 3. Задача “Линейные динамические системы (ЛДС)”. Разработать методы выпуклой оптимизации для исследования устойчивости линейных динамических систем. Приложения: моделирование электрических сетей, экономическое моделирование, экологическое моделирование. 4. Задача “Выпуклые задачи огромной размерности (ВЗОР)”. Разработать новые градиентные методы выпуклой оптимизации для задач огромной размерности. Приложения: оптимальный структурный дизайн (Shape design) деформируемого твердого тела в промышленности, автомобилестроении, самолетостроении.

Ожидаемые результаты
Ожидаемые результаты и их научную и общественную значимость удобно привести с разбивкой по перечисленным задачам проекта. 1. Универсальные градиентные методы. Будут разработаны новые универсальные градиентные методы оптимизации, обладающие, в отличие от существующих методов, такими полезными свойствами, как вычисление на каждой итерации только одного прокс-отображения вместо двух; ускорение сходимости для сильно выпуклых задач; учет погрешностей в вычислении значения функции и ее градиента, а также прокс-отображения; одновременное решение прямой и двойственной задачи с сохранением скорости сходимости; способность решать минимаксную негладкую задачу со скоростью сходимости, присущей методам для гладких задач; способность решать задачу при наличии функциональных ограничений-неравенств; способность решать задачи стохастической оптимизации. Для всех предложенных методов будет проведен теоретический анализ сходимости и проведены предварительные численные эксперименты. Наличие указанных свойств позволит гарантированно существенно ускорить расчет равновесий в многостадийных моделях равновесного распределения транспортных потоков в мегаполисе. К примеру, расчет равновесия для Москвы можно будет проводить на персональном компьютере за несколько часов. Это облегчит задачу городского транспортного планирования, в которой обычно требуется рассчитывать равновесия для различных сценариев изменения городской среды и выбирать сценарий с наилучшими параметрами. Также указанные методы позволят решать более широкий класс задач машинного обучения, чем существующие методы линейки ADMM (Alternating Direction Method of Multipliers). Будет предложен единый метод для решения как гладких, так и негладких выпуклых задач оптимизации высокой размерности в машинном обучений и анализе данных. В целом, за счет универсальности и учета неточности оракула как стохастической, так и детерминированной природы, разрабатываемые методы существенно расширят класс прикладных задач, которые можно решать с небольшими временными затратами на персональном компьютере, используя меньшее количество входных параметров алгоритма оптимизации. 2. Невыпуклая оптимизация. Будут разработаны новые универсальные методы (первого и второго порядка) для невыпуклых задач, обладающие, в отличие от существующих методов, такими полезными свойствами, как способность решать задачи большой размерности с автоматической настройкой на гладкость целевой функции или ее градиента; учет погрешностей в вычислении значения функции и ее градиента. Будут разработаны новые рандомизированные методы второго порядка для задач типа минимизации эмпирического риска, возникающих в обучении глубоких нейронных сетей. Для предложенных методов будет проведен теоретический анализ сходимости и проведены предварительные численные эксперименты на реальных задачах. Особое внимание будет уделено эффективной программной реализации предлагаемых методов. Разрабатываемые методы позволят существенно расширить класс гарантированно быстро решаемых задач анализа данных и машинного обучения, быстрее решать те задачи, для которых уже существуют численные методы. В конечном итоге это позволит быстрее и точнее извлекать полезную информацию из больших массивов данных, в частности решать задачи распознавания речи и изображений. 3. Линейные динамические системы. Будут разработаны принципиально новые подходы к построению функций Ляпунова для линейных динамических систем с переключениями, которые будут пригодны для вычисления и оценки показателя Ляпунова в больших размерностях. Идея нового подхода состоит в применении методов выпуклой оптимизации, в частности, универсальных градиентных методов, для поиска наилучшей выпуклой функции Ляпунова в специальных классах функций: в классах кусочно-линейных и кусочно-квадратичных функций. Указанную технику планируется применить как для классических линейных систем с переключениями, так и для систем на графах, а также для положительных систем с неопределенностью в строчках. Это даст существенный прогресс в прикладных задачах теории электрических цепей, популяционной динамики (оптимизация проекционных матриц), а также математической экономике (оптимизация расходов в модели Леонтьева). 4. Выпуклые задачи огромной размерности. Будет разработан эффективный градиентный метод с относительной точностью для решения задачи структурного дизайна (Shape design). Характерной особенностью такого рода задач является их разреженность и огромная размерность. Предлагаемый подход не только учитывает указанные характерные особенности задачи структурного дизайна, но и позволяет гарантированно находить ее решение с оптимальной скоростью независимо от начальной точности приближения. Так, если считать характерным размер конструкции в пределах метра (например, панель обшивки самолета), то его оптимальную топологию можно быстро рассчитать и отобразить на экране обычного ноутбука с точностью до миллиметра. При этом метод позволит контролировать точность выполненных расчетов. Полученные в проекте результаты планируется публиковать в ведущих изданиях, таких как Mathematical Programming, SIAM Journal on Optimization, Journal of Optimization Theory and Applications, Optimization Methods and Software, European Journal of Operations Research. При подготовке настоящего проекта коллектив исходил из современного состояния исследований в области численных методов оптимизации большой размерности. Были проанализированы статьи в ведущих изданиях по оптимизации (Mathematical Programming, SIAM Journal on Optimization, SIAM Journal on Matrix Analysis and Applications, Foundations of Computational Mathematics, IEEE Transactions on Automatic Control, Systems and Control Letters, Automatica, и т.д.), а также статьи, принятые на ведущие конференции в области анализа данных и машинного обучения (International Conference on Machine Learning, Conference on Computational Learning Theory, Neural Information Processing Systems, ILAS Conferences, IEEE Conference on Decision and Control ). Анализ указанных источников показал, что предлагаемые в проекте методы отсутствуют в мировой литературе.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2017 году
1. Протасов В.Ю. (Protasov Vladimir Yu.) Comprehensive Lyapunov functions for linear dynamical systems. Подана в журнал Automatica. Для линейных динамических переключающихся систем, была проанализирована ассимптотическая скорость роста траекторий, зависящих от начальной точки. Были рассмотрены как системы с непрерывным, так и с дискретным временем. Было доказано существование функции Ляпунова для конечномерного пространства, чьё сужение на любое инвариантное подпространсво рассматриваемой системы обеспечивает более точную оценку для скорости роста траекторй на подпространствах. Введена концепция спектральной факторизации и показано что каждая система имеет конечное число различных экспонент роста, не превышающее размерности фазового пространства. Также были исследованы свойства ляпуновской нормы и рассмотрены различные методы для ее построения. 2. Воронцова Е.А., Гасников А.В., Горбунов Э.А. (Vorontsova E.A., Gasnikov A.V., Gorbunov E.A.) Ускоренные спуски по случайному направлению с неевклидовой прокс-структурой. Подана в журнал Автоматика и Телемеханика. Для предложенного ускоренного спуска по направлению доказана оценка скорости сходимости. Приведен контрпример, показывающий сложность обобщения метода на задачи условной оптимизации. 3. Баяндина А. (Bayandina A.) Adaptive Mirror Descent for Constrained Optimization. Proceedings of Conference: Constructive Nonsmooth Analysis and Related Topics, St.Petersbourg (2017 г.) Доказано, что для решения задач выпуклой негладкой условной оптимизации может быть применён метод зеркального спуска с адаптивным выбором шага. Теперь размер шага зависит только от градиента в текущей точке. При этом скорость сходимости метода оптимальна в смысле нижних оценок, а константа сходимости улучшена благодаря адаптивности. Для сильно выпуклых задач также доказана оптимальная сходимость с улучшенной константой. Показано, что для выпуклых задач с ограничениями в форме максимума при использовании предложенного алгоритма решение прямой задачи сходится к решению двойственной, и скорость этой сходимости оптимальна. 4. Гасников А.В., Нестеров Ю.Е. (Gasnikov A.V., Nesterov Yu.) Универсальный метод для задач стохастической композитной минимизации. Принята к публикасции в Журнале Вычислительной Математики и Математической Физики. Доказаны оценки скорости сходимости метода подобных треугольников и его композитной, адаптивной и универсальной вариации. Показано, как универсальный вариант МПТ можно применять к задачам стохастической оптимизации. Получены оценки скорости сходимости метода в этом случае. 5. Нестеров Ю.Е. (Nesterov Yurii) Complexity bounds for primal-dual methods minimizing the model of objective function. Mathematical Programming (2017 г.) Для известного метод условных градиентов была предложена новая схема оценки скорости сходимости, позволяющая получать приближенные решения прямо-двойственных задач с композитной целевой функцией. Дополнительные свойства негладкой части целевой функции могут существенно ускорить скорость сходимости процесса. Был также предложен новый вариант этого метода, который имеет интерпретацию метода доверительных областей. Для этого варианта было также доказано гарантированное уменьшение полной вариации линейной модели на допустимом множестве. Наш подход также работает для квадратичных моделей. Это позволило получить первые результаты о глобальной эффективности метода доверительных областей второго порядка. 6. Двуреченский П., Гасников А., Камзолов Д. (Dvurechensky P., Gasnikov A., Kamzolov D.) Universal Intermediate Triangle Method. Подана в журнал Optimization Methods and Software. Для универсального промежуточного градиентного метода с неточным оракулом и неточным прокс-отображением и его версии для задач с сильно выпуклой целевой функцией доказаны оценки скорости сходимости. Полученные скорости сходимости являются оптимальными с точки зрения информационной теории сложности задач оптимизации. Показано, что метод позволяет на каждом шаге автоматически подбирать уровень неточности оракула и неточности прокс-отображения для того, чтобы метод в целом вычислил решение с любой наперед заданной точностью по функции. 7. Нестеров Ю.Е., Протасов В.Ю. (Nesterov Yu, Ptotasov Vladimir Yu.) Computing closest stable non-negative matrix. Подана в журнал SIMAX. Была исследована задача стабилизации для линейных динамических систем с дикретным временем, задаваемых неотрицательными матрицами. Оказалось что для построения ближайшей устойчивой матрицы в бесконечной норме существуют эффективные полиномиальные алгоритмы. Тот же факт верен и для нахождения расстояния до границы множества устойчивых матриц, если мерять расстояние в бесконечной норме. Был также рассмотрен случай полиедральных норм и столбцовых множеств неопределенности. Для такой ситуации был предложен эффективный алгоритм симплексного типа. Для рассмотренных ситуаций было получено точное описание множества устойчивости вокруг заданной матрицы. Этот результат является обобщением теоремы Харитонова об устойчивых полиномах на матричный случай. 8. Грапилия Д., Нестеров Ю.Е. (Grapiglia G., Nesterov Yu.) Accelerated regularized Newton methods for minimizing composite functions. Подана в журнал SIAM Journal on Optimization. Были изучены различные схемы ускоренного метода Ньютона с кубической регуляризацией, предназначенные для миниизации целевой функции представленной в виде суммы двух функций. Одна из них выпуклая и дважды дифференцируемая с матрицей вторых производных, удовлетворяющей условию Гельдера. А другая составляющая - это простая выпуклая функция, которая может и не являться гладкой или даже непрерывной. В случае когда параметр Гельдера известен, были разработаны методы оптимизации, существенно ускоряющие метод Ньютона. Они основаны на запоминании линейной модели целевой функции, накапливаемой за время работы алгоритма. В том же случае когда параметр Гельдера неизвестен (а это как правило так), были разработаны универсальные методы, автоматически настраивающиеся на наилучшее значение параметра. Их скорость сходимости не такая высокая как у методов с полной информацией. Тем не менее, они существенно быстрее одношаговых методов Ньютона, имеющих полную информацию о степени гладкости целевой функции. 9. Гуминов С., Гасников А., Аникин А., Горнов А. (Guminov С., Gasnikov А., Anikin А., Gornov А.) A universal modification of the linear coupling method. Принята к публикации в журнале Optimization Methods and Software Для универсального быстрого градиентного метода с вспомогательной одномерной оптимизацией проведены численные эксперименты, которые показали, что предложенный метод для негладких задач работает заметно быстрее универсального градиентного метода. Насколько нам известно, это первый универсальный метод с вспомогательной одномерной минимизацией. Были получены оценки скорости сходимости предложенного метода. Оценки оптимальны для рассматриваемого класса задач с точностью до мультипликативных констант. 10. Баяндина А. (Bayandina A.) Adaptive Stochastic Mirror Descent for Constrained Optimization. Proceedings of Conference: Constructive Nonsmooth Analysis and Related Topics. St.Petersbiug (2017 г.) Доказано, что для решения задач выпуклой негладкой условной стохастической оптимизации может быть применён метод зеркального спуска с адаптивным выбором шага. Теперь размер шага зависит только от градиента в текущей точке. При этом скорость сходимости метода в среднем оптимальна в смысле нижних оценок, а константа сходимости улучшена благодаря адаптивности. 11. Тюрин А.И., Гасников А.В. (Turin A.I., Gasnikov A.V.) Быстрый градиентный спуск для задач выпуклой минимизации с оракулом, выдающим (δ,L)-модель функции в запрошенной точке. Подана в Журнал Вычислительной Математики и Математической Физики. Показано, что многие известные ранее конструкции методов (композитные методы, методы уровней, метод условных градиентов, проксимальные методы) являются частными случаями предложенных методов на основе (δ, L)-модели функции. 12. Нестеров Ю.Е., Шихман В. (Nesterov Yu., Shikhman V.) Dual subgradient method with averaging for optimal resource allocation. Принята к публикации в журнале EJOR. Был предложен двойственный субградиентный метод, который может решать задачи выпуклой оптимизации с линейными ограничениями. Новой чертой этого метода является возможность построения приближения к решению прямой задачи по траектории двойственного процесса. Для этого вычисляется среднее значение прямых переменных, вознимающих при вычислении значения двойственной функции. В качестве интересного приложения, метод применяется для вычисления оптимального размещения ресурсов в системе с многими независимыми агентами, имеющими собственные целевые функции. Предложенный алгоритм может быть реализован в реальных экономических системах для быстрого достижения рыночного равновесия.

 

Публикации

1. Баяндина А. Adaptive Mirror Descent for Constrained Optimization. Proceedings of Conference: Constructive Nonsmooth Analysis and Related Topics, St.Petersbourg, - (год публикации - 2017) https://doi.org/10.1109/CNSA.2017.7973937

2. Баяндина А. Adaptive Stochastic Mirror Descent for Constrained Optimization. Proceedings of Conference: Constructive Nonsmooth Analysis and Related Topics. St.Petersbiug, - (год публикации - 2017) https://doi.org/10.1109/CNSA.2017.7973938

3. Воронцова Е.А., Гасников А.В., Горбунов Э.А. Ускоренные спуски по случайному направлению с неевклидовой прокс-структурой Автоматика и Телемеханика, - (год публикации - 2018)

4. Гасников А.В., Нестеров Ю.Е. Универсальный метод для задач стохастической композитной минимизации Журнал Вычислительной Математики и Математической Физики, - (год публикации - 2018)

5. Грапилия Д., Нестеров Ю.Е. Accelerated regularized Newton methods for minimizing composite functions SIAM Journal on Optimization, - (год публикации - 2018)

6. Гуминов С., Гасников А., Аникин А., Горнов А. A universal modification of the linear coupling method Optimization Methods and Software, - (год публикации - 2018)

7. Двуреченский П., Гасников А., Камзолов Д. Universal Intermediate Triangle Method Optimization Methods and Software, - (год публикации - 2018)

8. Нестеров Ю.Е. Complexity bounds for primal-dual methods minimizing the model of objective function Mathematical Programming, - (год публикации - 2017) https://doi.org/10.1007s/10107-017-1188-6

9. Нестеров Ю.Е., Протасов В.Ю. Computing closest stable non-negative matrix SIMAX, - (год публикации - 2018)

10. Нестеров Ю.Е., Шихман В. Dual subgradient method with averaging for optimal resource allocation EJOR, - (год публикации - 2018)

11. Протасов В.Ю. Comprehensive Lyapunov functions for linear dynamical systems Automatica, - (год публикации - 2018)

12. Тюрин А.И., Гасников А.В. Быстрый градиентный спуск для задач выпуклой минимизации с оракулом, выдающим (δ,L)-модель функции в запрошенной точке Журнал Вычислительной Математики и Математической Физики, - (год публикации - 2018)


Аннотация результатов, полученных в 2018 году
За 2018 в открытой печати появились следующие статьи, отражающие основные резудьтаты полученные в ходе выполнения проекта. 1. Гасников А.В., Нестеров Ю.Е. (Gasnikov A.V., Nesterov Yu.) Универсальный метод для задач стохастической композитной минимизации. Computational Mathematics and Mathematical Physics, 2018, 58(1), 48–64. (2018). В статье доказаны оценки скорости сходимости метода подобных треугольников (МПТ) и его композитной, адаптивной и универсальной вариации. Показано, как универсальный вариант МПТ можно применять к задачам стохастической оптимизации. Получены оценки скорости сходимости метода в этом случае. 2. Гуминов С., Гасников А., Аникин А., Горнов А. (Guminov С., Gasnikov А., Anikin А., Gornov А.) A universal modification of the linear coupling method. Optimization Methods and Software. Published online: Sept 2018, DOI 10.1080/10556788.2018.1517158 Для универсального быстрого градиентного метода со вспомогательной одномерной оптимизацией проведены численные эксперименты, которые показали, что предложенный метод для негладких задач работает заметно быстрее универсального градиентного метода. Насколько нам известно, это первый универсальный метод со вспомогательной одномерной минимизацией. Были получены оценки скорости сходимости предложенного метода. Оценки оптимальны для рассматриваемого класса задач с точностью до мультипликативных констант. 3. Нестеров Ю.Е., Шихман В. (Nesterov Yu., Shikhman V.) Dual subgradient method with averaging for optimal resource allocation. European Journal of Operational Research, 270, 907-916 (2018). Был предложен двойственный субградиентный метод, который может решать задачи выпуклой оптимизации с линейными ограничениями. Новой чертой этого метода является возможность построения приближения к решению прямой задачи по траектории двойственного процесса. Для этого вычисляется среднее значение прямых переменных, вознимающих при вычислении значения двойственной функции. В качестве интересного приложения, метод применяется для вычисления оптимального размещения ресурсов в системе со многими независимыми агентами, имеющими собственные целевые функции. Предложенный алгоритм может быть реализован в реальных экономических системах для быстрого достижения рыночного равновесия. 4. Нестеров Ю.Е. (Nesterov Yurii) Complexity bounds for primal-dual methods minimizing the model of objective function. Mathematical Programming, 171(1–2), 311–330 (2018) Для известного метод условных градиентов была предложена новая схема оценки скорости сходимости, позволяющая получать приближенные решения прямо-двойственных задач с композитной целевой функцией. Дополнительные свойства негладкой части целевой функции могут существенно ускорить скорость сходимости процесса. Был также предложен новый вариант этого метода, который имеет интерпретацию метода доверительных областей. Для этого варианта было также доказано гарантированное уменьшение полной вариации линейной модели на допустимом множестве. Наш подход также работает для квадратичных моделей. Это позволило получить первые результаты о глобальной эффективности метода доверительных областей второго порядка. 5. Гасников А.В., Гасникова Е.В., Нестеров Ю.Е. (A.V. Gasnikov, E. V. Gasnikova, Yu. E. Nesterov.) Dual Methods for finding Equilibriums in Mixed Models of Flow Distribution in Large Transportation Networks. Computational Mathematics and Mathematical Physics, 58(9), 1395-1403 (2018). В этой статье рассматриваются задачи нахождения равновесного распределения транспортных потоков в смешанных сетях, где часть дуг характеризуются с помощью явной функции задержок, а другая часть имеет ограниченные пропускные способности с заданным минимальным временем проезда в случае отсутствия пробок. Такие модели возникают, в частности, в случае грузовых перевозок. Специальным классом смешанных моделей является семейство комбинированных моделей Бекмана и модели стабильной динамики. Поиск равновесия в этих моделях сводится к решению специальной задачи выпуклой оптимизации. В этой статье предложен метод двойственных усреднений для решения двойсттвенной задачи. Рассматриваются два различных метода восстановления прямого решения. Показывается что предложенные алгоритмы хорошо распараллеливаются. Полученные оценки скорости сходимости соответствуют нижним оценкам сложности соответствующего класса задач негладкой оптимизации. 6. Гулельми Н., Протасов В. (N.Guglielmi, V.Yu.Protasov) On the Closest Stable/Unstable Nonnegative Matrix and Related Stability Radii. SIAM Journal of Matrix Analysis and Applications, 39(4), 1642-1669 (2018). В этой статье рассматривается задача построения ближайшей устойчивой/неустойчивой неотрицательной матрицы к заданной вещественной матрице. Расстояние между матрицами измеряется в Фробениусовой норме. Эта задача анализируется с точки зрения двух критериев устойчивости: устойчивости по Шуру (когда матрица считается устойчивой если ее спектральный радиус меньше чем единица) и устойчивостью по Гурвицу (когда матрица считается устойчивой если ее спектральная абсцисса отрицательна). Показывается что ближайшая неустойчивая матрица всегда может быть найдена в явном виде. Для нахождения ближайшей устойчивой матрицы предложен алгоритм с локальной линейной скоростью сходимости. Показывается что общее количество локальных минимумов в этой задаче может быть экспоненциально большим. Также привежены оценки сложности и результаты численных экспериментов. 7. Нестеров Ю., Шихман В. (Nesterov Yu, Shikhman V.) Computation of Fisher–Gale Equilibrium by Auction. Journal of Operations Research Society China, DOI: 10.1007/s40305-018-0195-5 (2018). В этой статье с алгоритмической точки зрения рассматривается модель Фишера для нахождения рыночного равновесия в условиях конкуренции. Для этого используется соответствующая задача выпуклой оптимизации предлоденная Gale and Eisenberg (Ann Math Stat 30(1):165–168, 1959). Известно что эта модель приводит к равновесию по Фишеру только при некоторых структурных предположениях о функции полезности потребителей (например, однородности степени единица, гомотетичности, и т.д.). Наша цель состояла в проверке применимости Выпуклой Оптимизации при отсутствии этих стандартных предположений. Мы предполагаем только вогнутость функции полезности. Для этого случае удается сформулировать новую концепцию равновесия Фишера-Гейла, основанную только на индивидуальных ценах на полезность. Эти цены позволяют сравнивать полезности различных вариантов потребления. В свою очередь, становится возможным применить для этой ситуации метод оптимизации субградиентного типа. Для децентрализации цен мы вводим вспомоготельный аукцион на котором потребители устанавливают и пресчитывают свои цены, а производители продают продукты по максимальной предложенной цене. Адаптация цен происходит пропорционально избытку спроса над предложением. Показано что исторически средние объемы производств сходятся к равновесным величинам. Наш метод обладает гарантированной скоростью сходимости, характерной для алгоритмов негладкой оптимизации. 8. Чиконе А.,Гулильми, Протасов В. (A.Cicone, N.Guglielmi, V.Yu.Protasov) Linear dynamical switching systems on graphs. Nonlinear Analysis: Hybrid Systems, 29, !65-186 (2018). В статье рассматриваются линейные динамические системы со структурой мультиграфа. В этом графе вершины ассоциируются с линейными пространствами, а ребра соответствуют линейным отображениям между этими простраствами. Мы анализируем ассимтотический рост траекторий (ассоциированных с путями в мультиграфе), стабильность и стабилизируемость задач. Эти рассмотрения обобщают классисческие линейные переключающиеся системы вместе с их недавним расширением на Марковские системы на системы генерируемые регулярными языками. Показывантся что любая система может быть разложена на несколько неприводимых систем соответсвующих сильно связанному мультиграфу. Для таких систем мы доказываем существование инвариантой (Барабановской) мультинормы и предлагаем метод ее построения. Наш метод работаает для обширного класса систем и находит их совместный спектральный радиус (Ляпуновская экспонента). Мы приводим также результаты численных экспериментов и рассматриваем приложения, полезные для изучения фракталов, аттракторов и многошаговых методов для Обыкновенных Дифференциальных Уравнений.

 

Публикации

1. Гасников А., Нестеров Ю. Universal Method for Stochastic Composite Optimization Problems Computational Mathematics and Mathematical Physics, 58(1), 48-64 (год публикации - 2018)

2. Гасников А.В., Гасникова Е.В., Нестеров Ю.Е. Dual Methods for finding Equilibriums in Mixed Models of Flow Distribution in Large Transportation Networks Computational Mathematics and Mathematical Physics, 58(9) 1395-1403 (год публикации - 2018)

3. Гулельми Н., Протасов В. On the Closest Stable/Unstable Nonnegative Matrix and Related Stability Radii SIAM Journal of Matrix Analysis and Applications, 39(4) 1642-1669 (год публикации - 2018)

4. Гуминов С., Гасников А., Аникин А., Горнов А. A universal modification of the linear coupling Optimization Methods and Software, - (год публикации - 2018) https://doi.org/10.1080/10556788.2018.1517158

5. Нестеров Ю., Шихман В. Computation of Fisher–Gale Equilibrium by Auction Journal of Operations Research Society China, - (год публикации - 2018) https://doi.org/10.1007/s40305-018-0195-5

6. Нестеров Ю., Шихман В. Dual subgradient method with averaging for optimal resource allocation European Journal of Operational Research, 270, 907-916 (год публикации - 2018)

7. Нестеров Ю.Е. Complexity bounds of primal-dual methods based on the model of objective function Mathematical Programming, 171(1-2), 311-330 (год публикации - 2018)

8. Тюрин А. Adaptive fast gradient method in stochastic optimization tasks Computational Mathematics and Mathematical Physics, - (год публикации - 2019)

9. Тюрин А., Гасников А. Fast Gradient method for minimization problems based on (d,L)-model of the oracle of the objective function Computational Mathematics and Mathematical Physics, - (год публикации - 2019)

10. Чиконе А.,Гулильми, Протасов В. Linear dynamical switching systems on graphs Nonlinear Analysis: Hybrid Systems, 29, 165-186 (год публикации - 2018)


Аннотация результатов, полученных в 2019 году
Предложен универсальный прямо-двойственный ускоренный градиентный метод со вспомогательной одномерной оптимизацией. Особенностью метода является возможность работы в отсутствии знаний информации об оптимизируемой функции. Функция может быть невыпуклой, может быть выпуклой, но негладкой. Методу ничего этого не надо знать, равно как и соответствующих констант гладкости. Метод сам настраивается адаптивно и на гладкость и на выпуклость. Важной особенностью метода является его прямо-двойственность на классе выпуклых задач. Получены оценки скорости сходимости метода во всех режимах. Причем оценки соответствуют нижним оценкам для рассматриваемых классов задач. Проведены численные эксперименты для сравнения предложенного метода с методом сопряженных градиентов и квазиньютоновскими методами, показавшие преимущество нового метода. Разработанные в проекте варианты ускоренных градиентных методов применены к существенно невыпуклым задачам минимизации функции энергии, описывающей состояние макромолекул в задачах белкового фолдинга и докинга. Отличительной особенностью задачи является ее большая размерность и квадратичная по размерности стоимость вычисления градиента и значения целевой функции. Экспериментально показано, что специальные адаптивные варианты разрабатываемых в проекте ускоренных методов хорошо решают данные задачи и конкурируют с лучшими известными сейчас методами для этих задач. Полученные результаты открывают возможности применения разрабатываемых в проекте методов оптимизации к задачам разработки лекарств и дизайна материалов. Предложен общий подход построения ускоренных рандомизированных методов для выпуклой оптимизации, включая безградиентные методы, спуски по направлению, покомпонентные методы. Предложенные методы работают в предположении неточного оракула, то есть при наличии зашумленной информации о производных и значениях целевой функции. Для безградиентных методов это является важным аспектом в виду некорректности численного дифференцирования. Получены оценки скорости сходимости методов в предположении выпуклости, а также при наличии дополнительного предположения о сильной выпуклости. Подход позволил получить как известные методы, так и новые, например, ускоренный блочно-покомпонентный метод с неевклидовой проксимальной структурой. Описан общий (ускоренный) способ работы с задачами структурной (композитной, max-задачами и т.п.) оптимизации путем введения концепции неточной модели функции, обобщающей концепцию (\delta, L)-оракула (Деволдер-Глинер-Нестеров, 2013). Особенностью подхода является возможность работы также в концепции относительной гладкости в неускоренном случае. Предложено обобщение ускоренного градиентного метода для задач при наличии неточной модели целевой функции, получена оценка его скорости сходимости, а также оценка на скорость накопления неточности и ошибки проектирования на допустимое множество. В качестве частного случая получены метод условного градиента, ускоренный метод с неточным оракулом. Были рассмотрены методы с переменной метрикой из класса квазиньютоновских методов. Основной целью являлось получение оценок скорости локальной и глобальной сходимости методов. Для методов из этого класса на текущий момент известно, что глобальная скорость сходимости не лучше, чем у градиентного метода, а локальная скорость сходимости является сверхлинейной. Однако, показатель скорости сходимости неизвестен. Кроме того, исследовались возможности ускорения градиентных методов в невыпуклом случае за счет введения переменной метрики. Разработан жадный алгоритм для минимизации/максимизации спектрального радиуса на специальных семействах неотрицательных матриц. Алгоритм демонстрирует свою исключительную эффективность даже в размерностях несколько тысяч. Указаны приложения данного метода к теории графов, теории линейных динамических cистем с переключениями и к ряду задач математической экологии (матричные модели популяционной динамики). При этом для борьбы с зацикливанием предложено понятие обобщенного перроновского вектора неотрицательной матрицы. В отличие от обычного перроновского вектора, который может быть не единственным, обобщенный вектор всегда единственный с точностью до нормировки. Для него указана явная формула и предложен эффективный алгоритм его вычисления. Идея жадного алгоритма оптимизации спектрального радиуса лежит в основе нового метода поиска ближайшей устойчивой/неустойчивой матрицы к данной неотрицательной матрице. Показано, что в норме $L_{\infty}$ эта задача всегда имеет выпуклое множество точек абсолютного минимума. Для поиска ближайшей матрицы разработан эффективный алгоритм. Напомним, что в норме Фробениуса та же задача может иметь экспоненциальное по размерности число изолированных точек локального минимума, и эффективные алгоритмы минимизации неизвестны. Предложенный метод поиска ближайшей устойчивой матрицы применен к известной задаче о поиске максимально ацикличного подграфа заданного графа (MAS – maximal acyclic subgraph). Для ослабленной версии этой задачи, когда минимизируется максимальное число обрезанных ребер, взятое по всем вершинам, данный метод эффективно ищет оптимальный подграф. Для задачи MAS данный метод дает приближенное решение с фактором порядка 0.6. Кроме запланированных на 2019 год работ и результатов проведены также следующие работы и получены следующие результаты Предложен ускоренный безградиентный метод с неевклидовой проксимальной структурой и неточными значениями целевой функции. Отличительной особенностью метода является сочетание градиентного шага в 2-норме и шага метода зеркального спуска в 1-норме. Доказана специальная лемма о концентрации случайной величины на шарах в разной норме. Доказано, что рассогласование нормы для шагов позволяет выиграть в теоретической зависимости оценки скорости сходимости порядка корня из размерности в случае, если решение задачи является разреженным. Таким образом теоретическая оценка для метода является наилучшей из известных ускоренных безградиентных методов. Проведены численные эксперименты, показавшие эффективность метода на практике. Предложены имплементируемые тензорные методы, использующие производные произвольного порядка. Основное предполложение - производная порядка p является Липшицевой. Предложены нижние оценки для задач такого класса, а также тензорные и ускоренные тензорные методы, имеющие почти оптимальные оценки. Для методов третьего порядка с помощью подхода относительной гладкости показано, что каждая итерация метода третьего порядка требует вычислительных затрат примерно столько же, сколько методы второго порядка. При этом по теоретическим оценкам метод третьего порядка сходится быстрее, чем метод второго порядка. Предложены адаптивные тензорные методы для выпуклой минимизации функций, имеющих Липшицеву производную произвольного порядка. Доказана оценка скорости сходимости, которая с точностью до логарифмического фактора является оптимальной в данном классе. Метод обобщен на класс равномерно выпуклых функций, для которого получена оценка скорости сходимости, в том числе в определенном классе задач линейная. Предложено обобщенное число обусловленности для функций рассматриваемого класса. Проведены численные эксперименты, показавшие, что метод третьего порядка работает быстрее, чем метод второго порядка. Предложен прямо-двойственный адаптивный быстрый градиентный метод для задач с линейными ограничениями и применен для задачи вычисления расстояния Васерштейна между вероятностными мерами, имеющей широкое применение к задачам машинного обучения. Получена оценка сложности для задач оптимального транспорта, в определенных режимах являющаяся лучшей, чем оценка для используемого в литературе метода Синхорна. Кроме того, в получена улучшенная оценка сложности для метода Синхорна. Показано, что в режиме невысокой точности, который характерен для приложений в машинном обучении из-за наличия шума в данных, предложенный ускоренный градиентный метод теоретически работает быстрее, чем метод Синхорна. Теоретический результат также подтвержден численными экспериментами.

 

Публикации

1. Аникин А.С., Большакова О.А., Гасников А.В., Горнов А.Ю., Ермак Т.В., Макаренко Д.В., Морозов В.П., Нетеребский Б.О., Яковлев П.А. Anikin_et_al_Local Algorithms for Minimizing the Force Field for 3D Representation of Macromolecules Computational Mathematics and Mathematical Physics, Vol. 59, No. 12, pp. 1994–2008 (год публикации - 2019) https://doi.org/10.1134/S0965542519120030

2. В. Ю. Протасов Protasov,_How to make the Perron eigenvalue simple Calcolo, 56:17 (год публикации - 2019) https://doi.org/10.1007/s10092-019-0314-7

3. Воронцова Е.А., Гасников А.В., Горбунов Э.А., Двуреченский П.Е. Vorontsova_et_al_Accelerated Gradient-Free Optimization Methods with a Non-Euclidean Proximal Operator Automation and Remote Control, Volume 80, Issue 8, pp 1487–1501 (год публикации - 2019) https://doi.org/10.1134/S0005117919080095

4. Гасников А.В., Двуреченский П.Е., Горбунов Э.А., Воронцова Е.А., Селиханович Д.С., Урибе Ц. Gasnikov_et_al_Optimal Tensor Methods in Smooth Convex and Uniformly Convex Optimization Proceedings of the Thirty-Second Conference on Learning Theory, PMLR 99:1374-1391 (год публикации - 2019)

5. Двуреченский П.Е., Гасников А.В., Крошнин А.В. Dvurechensky_Gasnikov_Kroshnin_Computational Optimal Transport: Complexity by Accelerated Gradient Descent Is Better Than by Sinkhorn’s Algorithm Proceedings of the 35th International Conference on Machine Learning, PMLR 80:1367-1376 (год публикации - 2018)

6. Нестеров Ю.Е. Nesterov_Implementable tensor methods in unconstrained convex optimization Mathematical Programming, - (год публикации - 2019) https://doi.org/10.1007/s10107-019-01449-1

7. Ю.Е. Нестеров, В.Ю. Протасов Nesterov_Protasov_Computing closest stable non-negative matrix SIAM Journal on Matrix Analysis and Applications, - (год публикации - 2020)


Возможность практического использования результатов
Полученные в проекте результаты по методам выпуклой оптимизации могут использоваться в экономическом планировании, транспортном планировании, а также в биомедицине. Так, в проекте с алгоритмической точки зрения рассмотрена модель Фишера для нахождения рыночного равновесия в условиях конкуренции. Для этого используется соответствующая задача выпуклой оптимизации предложенная Gale and Eisenberg (Ann Math Stat 30(1):165–168, 1959). Известно что эта модель приводит к равновесию по Фишеру только при некоторых структурных предположениях о функции полезности потребителей (например, однородности степени единица, гомотетичности, и т.д.). Наша цель состояла в проверке применимости Выпуклой Оптимизации при отсутствии этих стандартных предположений. Мы предполагаем только вогнутость функции полезности. Для этого случая удается сформулировать новую концепцию равновесия Фишера-Гейла, основанную только на индивидуальных ценах на полезность. Эти цены позволяют сравнивать полезности различных вариантов потребления. В свою очередь, становится возможным применить для этой ситуации метод оптимизации субградиентного типа. Для децентрализации цен мы вводим вспомогательный аукцион на котором потребители устанавливают и пересчитывают свои цены, а производители продают продукты по максимальной предложенной цене. Адаптация цен происходит пропорционально избытку спроса над предложением. Показано что исторически средние объемы производств сходятся к равновесным величинам. Наш метод обладает гарантированной скоростью сходимости, характерной для алгоритмов негладкой оптимизации. В рамках приложения к транспортному планированию рассмотрены задачи нахождения равновесного распределения транспортных потоков в смешанных транспортных сетях, где часть дуг характеризуются с помощью явной функции задержек, а другая часть имеет ограниченные пропускные способности с заданным минимальным временем проезда в случае отсутствия пробок. Такие модели возникают, в частности, в случае грузовых перевозок, а также при попытке одновременного моделирования автомобильного и общественного транспорта. Специальным классом смешанных моделей является семейство комбинированных моделей Бекмана и модели стабильной динамики. Поиск равновесия в этих моделях сводится к решению специальной задачи выпуклой оптимизации. В проекте предложен метод двойственных усреднений для решения двойственной задачи. Рассматриваются два различных метода восстановления прямого решения. Показывается что предложенные алгоритмы хорошо распараллеливаются. Полученные оценки скорости сходимости соответствуют нижним оценкам сложности соответствующего класса задач негладкой оптимизации. Предложенные методы позволяют решать задачи большой размерности, возникающих при планировании транспортных систем крупных городов. Разработанные в проекте варианты ускоренных градиентных методов применены к существенно невыпуклым задачам минимизации функции энергии, описывающей состояние макромолекул в задачах белкового фолдинга и докинга. Отличительной особенностью задачи является ее большая размерность и квадратичная по размерности стоимость вычисления градиента и значения целевой функции. Экспериментально показано, что специальные адаптивные варианты разрабатываемых в проекте ускоренных методов хорошо решают данные задачи и конкурируют с лучшими известными сейчас методами для этих задач. Полученные результаты открывают возможности применения разрабатываемых в проекте методов оптимизации к задачам разработки лекарств и дизайна материалов.